服务器 频道

面向关键任务 Nehalem-EX RAS特性详解

  【IT168评测中心】在上一篇文章中,我们分析了Nehalem-EX处理器相对于通常的Nehalem处理器的不同:面向多路平台。由于定位不同,Nehalem-EX的内部架构也和普通处理器不同,此外,Nehalem-EX和通常的x86处理器很不同的一个地方是,它面向Mission Critical(关键任务)市场,相对于性能,这些市场上更加重要的是平台的可靠性。Nehalem-EX增加了相当多的RAS(Reliability, Availability, Serviceability:可靠性、可用性、稳定性)特性来满足关键任务计算的需求:

  传统的x86处理器难以进入关键领域的原因,就在于其RAS特性不足,可靠性不够,用户不敢在上面跑相关应用。Nehalem-EX的出现,将x86系统的可靠性带到了一个全新的水平,如图上所示,这些RAS特性非常多,大致总结如下:

 

Nehalem-EX RAS Features
类别功能特性说明
数据保护降低关键级别错误
全系统数据错误检测
限制错误所致影响
Parity checking and ECC
奇偶校验与ECC
 
Memory Themal Throttling
内存热量监控
防止内存过热
Memory demand & patrol scrubbing
内存按需/轮询检查
提高全系统数据可靠性
Corrupt data containment
污染数据隔离
限制错误数据造成的影响
QPI viral mode
QPI病毒模式
标记为Viral的数据包将被限制在QPI总线内而不会发送到设备上
QPI rolling CRC
QPI持续CRC校验
QPI CRC校验扩展到两个连续的包
高可用性恢复失效数据链接
从失效部件迁移
从不可修正错误中恢复
故障预测
Intel SMI Lane Failover
串行内存接口信道容错
 
Intel SMI Clock Failover
串行内存接口时钟容错
 
Intel SMI & QPI Packet Retry
SMI & QPI包重发
 
QPI Clock Failover
QPI时钟容错
 
QPI Self-Healing
QPI自愈
 
SDDC plus random bit error recovery
内存SDDC纠错与任意位错误恢复
 
Memory Mirroring
内存镜像
 
Memory DIMM and Rank Sparing
内存DIMM和Rank热备
 
Dynamic CPU and memory migration
CPU/内存动态迁移
需要操作系统支持
MCA-recovery with OS support
MCA恢复
需要操作系统支持
计划宕机时间最小化分区模块化
替换失效组件
Static System partitioning
静态系统分区
需要操作系统支持
MCA error logging (CMCI) with OS predictive failure analysis
用于操作系统失效分析预测的MCA错误记录
 
Physical Memory Board Hot Add/remove
物理内存卡热添加/热移除
 
Dynamic/OS Memory On-lining(capacity change)
动态内存在线(容量变更)
需要操作系统支持
Physical CPU Board Hot Add/remove
物理CPU卡热添加/热移除
需要操作系统支持
OS CPU on-lining(capacity change)
动态CPU在线(容量变更)
需要操作系统支持

  在Intel正式宣传的文档中,提到的RAS特性就是上面22条,集中解决三个方面的问题:一是数据保护,利用CRC、ECC等硬件机制来对传输的数据进行校验、纠错,如果无法纠正,就将损坏的数据进行隔离,以保证不造成更大的数据,避免系统的重启和宕机。二是高可用性,包括各种主要部件的备、镜像和热切换等,以保证系统的高可用性。三是计划宕机时间最小化,包括系统分区管理技术、CPU和内存的热添加和热移除等,将系统维护时间降低到最小。

0
相关文章